Embedding modelleri tarihsel olarak tek bir görev üzerinde (genellikle STS veya retrieval) değerlendirilmiş ve bu sonuçlar modelin genel yetkinliğinin göstergesi gibi sunulmuştur. Ancak MTEB'in orijinal çalışması (Muennighoff et al., 2023), temel bir gerçeğin altını çizer: bir görevde SOTA olan bir modelin başka görevlerde de iyi olacağının hiçbir garantisi yoktur. Örneğin retrieval'da birinci sırada yer alan bir model, clustering'de ortalamanın altında kalabilir.
Bu motivasyonla MTEB, çok görevli (multi-task) bir kıyaslama çerçevesi olarak tasarlanmıştır. Leaderboard, modellerin bu çok boyutlu değerlendirme sonuçlarını tek bir platformda karşılaştırılabilir hale getirir.
MTEB leaderboard'u zaman içinde önemli revizyonlardan geçmiştir:
v1'den v2'ye geçişte görev adları, veri seti versiyonları ve hangi görevlerin hangi modellere koşulduğu farklılaşabilir. Bu nedenle farklı sürümlerden gelen skorlar doğrudan karşılaştırılmamalıdır.